Seminario: ” Inconsistencia de mezclas de procesos de Dirichlet para el número de componentes: ¿Qué tan preocupados deberíamos estar en la práctica?”

Publicado el: 10 · Junio · 2024

13 de Junio, Campus San Joaquín

Se invita a la comunidad del DMAT, el día jueves 13 de junio del 2024, a las 12:15 horas, a participar de una nueva sesión del Seminario de Investigación del DMAT, donde expondrá el Doctor Johan Van Der Molen, Académico del Departamento de Estadística de la Pontificia Universidad Católica de Chile, cuyo título del seminario es “𝐈𝐧𝐜𝐨𝐧𝐬𝐢𝐬𝐭𝐞𝐧𝐜𝐢𝐚 𝐝𝐞 𝐦𝐞𝐳𝐜𝐥𝐚𝐬 𝐝𝐞 𝐩𝐫𝐨𝐜𝐞𝐬𝐨𝐬 𝐝𝐞 𝐃𝐢𝐫𝐢𝐜𝐡𝐥𝐞𝐭 𝐩𝐚𝐫𝐚 𝐞𝐥 𝐧𝐮́𝐦𝐞𝐫𝐨 𝐝𝐞 𝐜𝐨𝐦𝐩𝐨𝐧𝐞𝐧𝐭𝐞𝐬: ¿𝐐𝐮𝐞́ 𝐭𝐚𝐧 𝐩𝐫𝐞𝐨𝐜𝐮𝐩𝐚𝐝𝐨𝐬 𝐝𝐞𝐛𝐞𝐫𝐢́𝐚𝐦𝐨𝐬 𝐞𝐬𝐭𝐚𝐫 𝐞𝐧 𝐥𝐚 𝐩𝐫𝐚́𝐜𝐭𝐢𝐜𝐚?”.

Lugar 📍: Sala A-005, Campus San Joaquín, Santiago.

Resumen 📖: Los modelos de mezcla Bayesianos no-paramétricos, particularmente las mezclas de procesos de Dirichlet (DPMs), han sido ampliamente utilizados para el análisis de clusters basado en modelos en una variedad de campos, debido a su flexibilidad, así como a la disponibilidad de métodos de muestreo eficientes para hacer inferencia. Sin embargo, resultados teóricos recientes han establecido que estas mezclas producen estimadores inconsistentes del número de clusters, cuya sobreestimación se ha observado en muestras finitas debido a la aparición de pequeños clusters adicionales.

Las mezclas finitas con una distribución a priori sobre el número de componentes, también conocidas como Mezclas de Mezclas Finitas (MFMs), han sido sugeridas como una alternativa asintóticamente consistente, pero la especificación incorrecta del modelo puede aún así resultar en inconsistencia asintótica y una pobre estimación del número de clusters. En este trabajo investigamos este problema en la práctica, examinando las implicancias de estos resultados en el análisis de datos en escenarios realistas, incluyendo el impacto de los algoritmos de post-procesamiento que resumen las muestras provenientes de cadenas de Markov Monte Carlo (MCMC), e identifican un clustering representativo final.

Usando simulaciones y aplicaciones a datos de expresión génica, encontramos que aunque las DPMs pueden sobreestimar el número de clusters, lo hacen de manera limitada y a menudo puede corregirse utilizando técnicas de resumen apropiadas. Además, encontramos que la especificación incorrecta puede llevar a una considerable sobreestimación del número de clusters tanto en DPMs como en MFMs, pero los resultados a menudo siguen siendo interpretables. Nuestro análisis proporciona recomendaciones sobre el resumen de cadenas MCMC y sugiere que, aunque las MFMs pueden tener propiedades asintóticas más atractivas, los resultados obtenidos usando MFMs y mezclas de procesos de Dirichlet son a menudo muy similares en la práctica.

¡No se lo pierdan! ¡Los esperamos!